Mineração de emoções em textos multilíngues usando um corpus paralelo

نویسندگان

  • Aline Rode dos Santos
  • Karin Becker
  • Viviane Pereira Moreira
چکیده

Multilingual Opinion Mining deals with the analysis of opinions, regardless of the language in which they are written. Works in this area focus on the classification of the polarity of opinions extracted from texts, and less attention has been paid to the classification of emotions. This work proposes the use of Multilingual Opinion Mining techniques for emotion mining using parallel corpora. We developed experiments with two goals: 1) to compare two approaches for emotion classification: lexicon-based and machine learning-based; 2) to analyze whether a specific language produces better classification results. We developed experiments with a parallel corpus composed by lyrics in their original language (English) and their translations to Portuguese. The results show that machine learning is superior to the use of sentiment lexicon, and that there is no statistical difference regarding the languages used for classification. Resumo. A área de Mineração de Opinião Multilíngue surgiu para extrair e analisar opiniões em textos, independente do idioma no qual estão escritos. Os trabalhos na área concentram seus esforços em classificar a polaridade de opiniões extraídas de texto, mas a classificação das emoções ainda é pouco explorada. Este trabalho se propõe a usar técnicas de Mineração de Opinião Multilíngue para minerar emoções em corpora paralelos. Desenvolvemos experimentos com dois objetivos: 1) comparar duas abordagens de classificação de emoções, a saber, baseada em léxico de sentimentos e em aprendizado de máquina; 2) na classificação de emoções baseada em aprendizado de máquina, verificar se algum idioma produz melhores resultados em isolado ou combinado. Os experimentos utilizaram um corpus paralelo composto por letras de música no idioma original (inglês) e suas traduções para o português. Os resultados mostram que a abordagem aprendizado de máquina é superior ao uso de léxico de sentimento e que não há diferença estatística entre as classificações segundo os idiomas. 1. Introdução Com a expansão da Internet, é fácil para as pessoas expressarem seus sentimentos sobre diversos assuntos na rede, através de textos postados em blogs, redes sociais, fóruns, entre outros. Esses textos são uma fonte de dados rica para a Análise de Sentimentos (AS), também denominada Mineração de Opinião (MO), que tem como objetivo identificar, classificar e sumarizar sentimentos em textos a respeito de um alvo. Dentre as aplicações mais comuns de AS se encontram sumarização de revisões de produtos, análise de popularidade de marcas, organizações ou pessoas para relações públicas ou 29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Uso da ferramenta PreText para mineração de textos extraídos do NCBI para estudo epistemológico da Informática em Saúde

This article presents the PreText tool as auxiliary technique to a research on Health Informatics (HI) epistemology, which aim to understand, through text mining, among other methods and techniques, if the HI is characterized as science, technology, tecnoscience, or art. The PreText is used to execute texts preprocessing, transforming these texts in structured format using a bag-of-words approa...

متن کامل

Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem ...

متن کامل

RePort - Um Sistema de Extração de Informações Aberta para Língua Portuguesa (Report - An Open Information Extraction System for Portuguese Language)

An emerging field of research in Natural Language Processing (NLP) proposes Open Information Extraction systems (Open IE). Open IEs follow a domain-independent extraction paradigm that uses generic patterns to extract all relationships between entities. In this work, we present RePort, a method of Open IE for Portuguese, based on the ReVerb, an approach for English. Adaptations of syntactic and...

متن کامل

Subtopic Annotation in a Corpus of News Texts: Steps Towards Automatic Subtopic Segmentation

Subtopic segmentation aims at finding the boundaries among text passages that represent different subtopics, which usually develop a main topic in a text. Being capable of automatically detecting subtopics is very useful for several Natural Language Processing applications. This paper describes subtopic annotation in a corpus of news texts written in Brazilian Portuguese. In particular, we focu...

متن کامل

Extração Automática de Termos Candidatos às Ontologias: um Estudo de Caso no Domínio da Hemoterapia

This paper describes a case study conducted within the domain of blood transfusion aiming at non-exhaustively extraction of candidate terms for an ontology of human blood. The process involved both the construction of a corpus and its automatic processing, and the retrieval of specialized terms. As our main result, we have obtained candidate medical terms to be used in a ontology of blood trans...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014